#autoencoders dispersos

Estructuras latentes compartidas para detectar puertas traseras en LLMs

Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.

2026-06-17 · 3 min

Rastreo de circuitos en modelos de lenguaje de proteínas autoregresivos

Aprende cómo ProGenMech descubre circuitos neuronales en modelos de proteínas para mejorar la generación y predicción de fitness.

2026-06-16 · 3 min

Analizando representaciones visuales de aeronaves con autoencoders dispersos

Descubre cómo los autoencoders dispersos revelan patrones visuales en aeronaves, mejorando la interpretabilidad de modelos de IA.

2026-06-16 · 2 min

El tamaño no importa: Autoencoders dispersos con puntuación coseno

La puntuación coseno en autoencoders dispersos mejora la detección de características al evitar inflación de norma, logrando conceptos humanos.

2026-06-16 · 2 min

Autoencoders dispersos en cascada aprenden conceptos visuales multinivel en MLLMs

Descubre cómo los CSAEs aprenden conceptos visuales jerárquicos en MLLMs, mejorando la interpretabilidad y permitiendo intervenciones grupales.

2026-06-16 · 2 min

Unificación geométrica del aprendizaje de conceptos con conos de conceptos

Descubre cómo CBMs y SAEs se unifican con conos de conceptos. Aprende métricas para alinear conceptos supervisados y emergentes.

2026-06-16 · 3 min

Andamio computacional: clave para autoencoders dispersos

Descubre cómo un pequeño cuello de botella de rango reducido reduce los latentes densos en autoencoders dispersos y mejora la interpretabilidad.

2026-06-15 · 4 min

Descompón dispersamente donde toca, absorbe densamente donde no

Un nuevo estudio descubre que las activaciones contienen un componente denso y causal, reduciendo latentes densos un 84% en autoencoders dispersos. Descubre el andamio computacional.

2026-06-15 · 2 min

Ensamblando Autoencoders Dispersos

Ensamblaje de SAEs: mejora reconstrucción y estabilidad. Logra mejores resultados en detección de conceptos y elimina correlaciones espurias. Ideal para IA.

2026-06-15 · 2 min

Del aislamiento al enredo: ¿Separación de conceptos en interpretabilidad?

Los métodos de interpretabilidad (SAEs, sondas) buscan separar conceptos, pero manipular características afecta múltiples conceptos, desafiando la independencia

2026-06-12 · 2 min

Los circuitos de modelos de lenguaje son dispersos en la base de neuronas

Descubre cómo las neuronas MLP son tan dispersas como los autoencoders dispersos, permitiendo trazar circuitos causales en modelos de lenguaje sin coste adicional de entrenamiento.

2026-06-12 · 2 min

Descubrimiento Discreto de Conceptos entre Capas para Modelos de Lenguaje

CLVQ-VAE logra interpretar modelos de lenguaje con precisión humana del 78% y elimina conceptos clave reduciendo la precisión hasta un 93%. ¡Descúbrelo!

2026-06-11 · 2 min

ICA Lens: Interpretando modelos de lenguaje sin entrenar otro diccionario

Descubre cómo ICALens usa ICA para encontrar direcciones interpretables en LLMs sin entrenar diccionarios, superando a los SAEs en eficiencia y sondas.

2026-06-11 · 2 min

Características inestables y dependencia de semillas en SAEs

Descubre cómo las características inestables en autoencoders dispersos no son ruido, sino parte de subespacios reproducibles. Un estudio clave para la interpretabilidad de redes neuronales.

2026-06-11 · 2 min

Análisis mecanicista de algoritmos de alineación en modelos de lenguaje

Descubrimos cómo seis algoritmos de alineación (PPO, DPO, SimPO, ORPO, GRPO, KTO) transforman internamente los modelos. Implicaciones para seguridad.

2026-06-10 · 2 min

Interacciones entre características en crosscoders: pruebas compactas

Descubre cómo medir interacciones entre características de crosscoders mejora la reconstrucción, logra dispersión computacional y detecta agentes durmientes.

2026-06-10 · 2 min

Interpretación y control de un modelo TTS con autoencoders dispersos

Aprende cómo los autoencoders dispersos permiten interpretar y controlar un modelo de texto a voz: desde risas hasta género y velocidad.

2026-06-10 · 2 min

VFUSE: Características virulentas con autoencoders dispersos

Descubre cómo VFUSE utiliza autoencoders dispersos para detectar características virulentas en modelos de proteínas, mejorando la seguridad en el diseño.

2026-06-10 · 2 min

Predicción pre-intervención de efectos secundarios en steering de SAE

Aprende a predecir los efectos secundarios del steering con autoencoders dispersos. Un estudio en GPT-2, Pythia, Gemma y Llama para optimizar tu intervención.

2026-06-09 · 2 min

Query Lens: cómo interpretar características dispersas con efectos indirectos

Descubre Query Lens, un nuevo método que va más allá de Logit Lens para interpretar características de autoencoders dispersos, considerando efectos indirectos y la hipótesis del subespacio.

2026-06-09 · 2 min